تولید درخت بانک سازه ای زبان فارسی به روش تبدیل خودکار

نویسندگان

محمد حسین دهقان

mohammad hossein dehghan university of tehran, college of engineering, school of electrical and computer engineering, -109دانشکده برق و کامپیوتر دانشگاه تهران، ساختمان جدید، -109 هشام فیلی

heshaam faili university of tehran, college of engineering, school of electrical and computer engineering, 309دانشکده برق و کامپیوتر دانشگاه تهران، ساختمان جدید، 309

چکیده

درخت بانک از مهم­ترین و پرکاربردترین منابع مورد استفاده در زمینه پردازش زبان طبیعی است. دو نوع از پرکاربردترین درخت بانک­ ها، درخت بانک وابستگی و درخت بانک سازه­ ای است. با توجه به نبود درخت بانک سازه ­ای با حجم بزرگ در زبان فارسی در این مقاله به بررسی روشی ارائه شده در تبدیل درخت بانک وابستگی به سازه ­ای می­ پردازیم. سپس مشکلات این روش را در زبان فارسی و انگلیسی بررسی و با ارائه راهکارهایی کیفیت تبدیل را بهبود می بخشیم. اولین راهکار، تصحیح مکان اتصال سازه ها در درخت سازه ای به ازای هر رابطه ی وابستگی است. راهکار دوم، انجام مکاشفه ای به صورت پس پردازش و بر روی خروجیِ ساختار سازه ای این روش است که، کیفیت نهایی درخت های سازه ای را بهبود می بخشد. نتایج حاصل از آزمایش ها نشان می­دهد که، روش تبدیل با کمک راهکارهای ارائه شده حدود 85/25 درصد در زبان فارسی و 39/4 درصد در زبان انگلیسی دارای کیفیت بالاتری نسبت به حالتی است که از راهکارهای پیشنهادی استفاده نشود. در ادامه با کمک روش تبدیل و درخت بانک وابستگی موجود در زبان فارسی، یک درخت بانک سازه ای تولید کرده و به کمک آن تجزیه گری سازه ای را آموزش داده ایم. کیفیت تجزیه گر آموزش داده شده با استفاده از درخت بانک حاصل از روش تبدیل و راهکارهای پیشنهادی این پژوهش نسبت به حالتی که از راهکارهای پیشنهادی استفاده نشود، بهبودی 21 درصدی را نشان می دهد.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

تولید درخت بانک سازه‌ای زبان فارسی به روش تبدیل خودکار

Treebanks is one of important and useful resource in Natural Language Processing tasks. Dependency and phrase structures are two famous kinds of treebanks. There have already made many efforts to convert dependency structure to phrase structure. In this paper we study an approach to convert dependency structure to phrase structure because of lack of a big phrase structure Treebank in Persian. A...

متن کامل

ارائۀ راهکاری قاعده‌مند جهت تبدیل خودکار درخت تجزیۀ نحوی وابستگی به درخت تجزیۀ نحوی ساخت‌سازه‌ای برای زبان فارسی

In this paper, an automatic method in converting a dependency parse tree into an equivalent phrase structure one, is introduced for the Persian language. In first step, a rule-based algorithm was designed. Then, Persian specific dependency-to-phrase structure conversion rules merged to the algorithm. Subsequently, the Persian dependency treebank with about 30,000 sentences was used as an input ...

متن کامل

ارائۀ راهکاری قاعده مند جهت تبدیل خودکار درخت تجزیۀ نحوی وابستگی به درخت تجزیۀ نحوی ساخت سازه ای برای زبان فارسی

هدف مقاله حاضر ارائۀ روشی خودکار جهت تبدیل درخت تجزیه نحوی وابستگی به درخت تجزیه نحوی مبتنی بر دستور ساخت سازه ای معادل در زبان فارسی است. برای نیل بدین هدف، الگوریتمی قاعده مند جهت این نوع تبدیل طراحی شده است. به منظور دستیابی به درخت تجزیۀ نحوی ساخت سازه ای مناسب برای جملات زبان فارسی، دستور زبان فارسی مورد مطالعه قرار گرفته و قوانین خاص زبان فارسی استخراج و به الگوریتم مذکور افزوده شده است. ...

متن کامل

تبدیل خودکار درخت‌بانک وابستگی فارسی به درخت‌بانک سازه‌ای

There are two major types of treebanks: dependency-based and constituency-based. Both of them have applications in natural language processing and computational linguistics. Several dependency treebanks have been developed for Persian. However, there is no available big size constituency treebank for this language. In this paper, we aim to propose an algorithm for automatic conversion of a depe...

متن کامل

بررسی فرایند تبدیل در زبان فارسی

چکیده پژوهش حاضر به مطالعه فرایند تبدیل در زبان فارسی در چارچوب کی‌فر(2005) می‌پردازد. هدف از این پژوهش توصیف انواع فرایند تبدیل در زبان فارسی است. بدین منظور ابتدا فهرستی از واژه‌هایی که به بیش از یک مقوله تحوی تعلق دارند از فرهنگ لغت صدری‌افشار و همکاران (1381) استخراج شده و بر اساس نوع مقوله نحوی‌شان گروه‌‌بندی می‌شوند. پس از قرار دادن واژه‌ها در 6 گروه، هر گروه به صورت جداگانه مورد بررسی ق...

متن کامل

همگونی محل تولید خیشومی تیغه¬ای در زبان فارسی: فرایندی ...

این مقاله به بررسی آزمایشگاهی همگونی محل تولید همخوان خیشومی تیغه­ای /n/ با همخوان انسدادی لبی بعد در دو مرز هجایی و واژگانی می­پردازد. مقادیر فرکانس­های دوّم و سوّم در سه ناحیه مرکز واکه، پایان واکه و محدوده بست خیشومی توالی­های آوایی Vnb و Vmb که از کلمات طبیعی زبان فارسی استخراج شده بودند محاسبه شده و با یکدیگر مقایسه شدند. فرکانس همین سازه­ها در کلمات مختوم به خیشومی تیغه­ای /n/ در بافت مجزا ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید


عنوان ژورنال:
پردازش علائم و داده ها

جلد ۱۳، شماره ۲، صفحات ۱۲۱-۱۳۷

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023